Clustering en haute dimension par accumulation de clusterings locaux

نویسندگان

  • Marc-Ismaël Akodjènou-Jeannin
  • Kavé Salamatian
  • Patrick Gallinari
چکیده

Résumé. Le clustering est une tâche fondamentale de la fouille de données. Ces dernières années, les méthodes de type cluster ensembles ont été l’objet d’une attention soutenue. Il s’agit d’agréger plusieurs clusterings d’un jeu de données afin d’obtenir un clustering "moyen". Les clusterings individuels peuvent être le résultat de différents algorithmes. Ces méthodes sont particulièrement utiles lorsque la dimensionalité des données ne permet pas aux méthodes classiques basées sur la distance et/ou la densité de fonctionner correctement. Dans cet article, nous proposons une méthode pour obtenir des clusterings individuels à faible coût, à partir de projections partielles du jeu de données. Nous évaluons empiriquement notre méthode et la comparons à trois méthodes de différents types. Nous constatons qu’elle donne des résultats sensiblement supérieurs aux autres.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

SLEMC : Apprentissage semi-supervisé enrichi par de multiples clusterings

Résumé. La tâche de classification supervisée consiste à induire un modèle de prédiction en utilisant un ensemble d’échantillons étiquetés. La précision du modèle augmente généralement avec le nombre d’échantillons disponibles. Au contraire, lorsque seuls quelques échantillons sont disponibles pour l’apprentissage, le modèle qui en résulte donne généralement des résultats médiocres. Malheureuse...

متن کامل

Star Products and Local Line Bundles Étoile-produits Et Fibrés En Droite Locaux

The notion of a local line bundle on a manifold, classified by 2cohomology with real coefficients, is introduced. The twisting of pseudodifferential operators by such a line bundle leads to an algebroid with elliptic elements with real-valued index, given by a twisted variant of the AtiyahSinger index formula. Using ideas of Boutet de Monvel and Guillemin the corresponding twisted Toeplitz alge...

متن کامل

Étude sur les portails et agrégateurs des ressources pédagogiques universitaires francophones en accès libre

A ces trois grands objectifs stratégiques, deux autres objectifs (ou exigences) d'ordre technologique et culturel sont également à prévoir dans la construction d'un portail francophone commun de ressources pédagogiques gratuites : 1. D'abord, une exigence technique (et technologique) de convergence et de cohérence avec les pratiques internationales dans la conception et la diffusion des ressour...

متن کامل

Dosimetry at high-energy accelerators

R É S U M É Les problèmes de la dosimetric dans les champs de rayonnements ionisants diffusés autour des accélérateurs de haute énergie sont présentés. Après une courte introduction sur l'historique des grandeurs physiques utilisées pour l'acquisition de l'équivalent de dose, les techniques diverses pour la dosimétrie dans des champs mixtes à haute énergie sont décrites, en commençant par des m...

متن کامل

Semi-supervised incremental clustering of categorical data

Résumé. Le clustering semi-supervisé combine l’apprentissage supervisé and non-supervisé pour produire meilleurs clusterings. Dans la phase initiale supervisée de l’algorithme, un échantillon d’apprentissage est produit par selection aléatoire. On suppose que les exemples de l’échantillon d’apprentissage sont étiquetés par un attribut de classe. Puis, un algorithme incrémentiel développé pour l...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2008